[アップデート]Amazon Q Developerが SWE-benchでトップの性能を示しました
コンニチハ、千葉です。
現在ラスベガスで開催中の AWS re:Invent 2024 の Keynote にて発表された 「Amazon Q Developer now tops the SWE Bench」について解説します。
What is this?
発表された「Amazon Q Developer now tops the SWE Bench」は、新しい機能ではなく、Amazon Q Developerが SWE-bench にて トップの成績を出したという発表でした。
SWE-Benchとは?
SWE-bench(Software Engineering Benchmark)は、実際のソフトウェア開発における課題を解決するAIモデルの性能を評価するためのベンチマークデータセットです。このデータセットは、人気のある12のPythonリポジトリから収集された2,294のGitHubのIssueとそれに対応するPull Requestのペアで構成されています。
SWE-benchの目的は、AIモデルが現実世界のソフトウェア開発タスク、特にバグ修正や機能追加といった課題をどの程度効果的に解決できるかを評価することです。これにより、AIのプログラミング能力をより現実的なシナリオで測定することが可能となります。
評価方法としては、各Issueに対してAIモデルが生成したコード修正(パッチ)を適用し、その結果が既存のユニットテストを通過するかどうかで判断します。これにより、AIモデルが提案した解決策の正確性と有効性を客観的に測定することができます。
SWE-benchは、AIモデルのプログラミング能力を評価するための新たな基準として注目されています。特に、従来のベンチマークでは測定が難しかった現実的で複雑なソフトウェア開発タスクに対するAIの対応力を評価する点で重要です。
今回のポイント
Amazon Q Developerの実績です。
- 非常にある人気あるベンチマーク SWE-benchでソフトウェア開発の54.8%を解決した
- 7か月前のSWE-benchベンチマークに比べて2倍以上の性能になっている
- NFLやUBITEDなど、JAVAのアップグレードにAmazon Q Developerを使っている
さいごに
新しいサービスの発表と思いきや、性能検証でいい成績だぞ、という発表でした。前に使って微妙と思った方は再度試すと新しい発見があるかもしれません。すごいぞ Amazon Q Developer。